\chapter{Вступ} 
\section{Постановка задачі} 
Метою даної роботи є написання набору програм, що дозволяють отримувати дані з відкритої багатомовної вікі-енциклопедії Вікіпедія, проводити над ними різноманітну обробку та фільтрацію, та передавати користувачу результуючий текст. Зокрема початковою ідеєю даної роботи було створення програми автоматизації вікі-тексту, яка працює на основі інтервікі-посилань. Що це означає буде пояснено далі в тексті роботи.

\section{Основні поняття}
\begin{description}
\item[Вікіпедія] — відкрита багатомовна вікі-енциклопедія, яка підтримується некомерційною організацією «Фонд Вікімедіа». Назва утворена від слів «вікі» (технології для створення сайтів) і «енциклопедія». Працює на програмному забезпеченні MediaWiki. Найвідоміший серед багатьох сайтів WikiMedia Foundation, які надають вільний доступ до знань в різноманітних формах.

\item[Вікі] — це веб-сайт (або інша гіпертекстова збірка документів), що дозволяє користувачам змінювати самостійно зміст сторінок через браузер, використовуючи спрощену і зручнішу, порівняно з HTML, вікі-розмітку тексту. 

Термін Вікі може також стосуватися спільного програмного забезпечення (collaborative software), яке створюється для створення такого сайту, найпопулярнішим екземпляром якого є MediaWiki.

\item[Вікі-розмітка] — це полегшена мова розмітки, що використовується для запису сторінки у вікі-сайти, такі як Вікіпедія, а також є спрощеною альтернативою та проміжною ланкою до HTML. Її кінцевою метою вікі-розмітки є перетворення в HTML, який, у свою чергу, відображається у веб-браузерах. Варто зауважити що хоча вона простіша для сприйняття людьми, її синтаксичний аналіз набагато важчий за аналіз HTML, бо вікірозмітка зазвичай не є контекстно-вільною.

\item[Вікі-текст] - текст написаний мовою вікірозмітки.

\item[MediaWiki] (не плутати з WikiMedia) — програмний рушій для веб-сайтів, що працюють за технологією «вікі». Це один із найпотужніших вікі-рушіїв, написаний спеціально для Вікіпедії і використовується у багатьох інших проектах фонду Вікімедіа. Вільна програма, що розповсюджується під Загальнодоступною громадською ліцензією GNU.

MediaWiki написаний на PHP і використовує у своїй роботі реляційну базу даних (можна використовувати MySQL, PostgreSQL); підтримує використання програм memcached та Squid.

\item[WikiMedia] Фонд «Вікімедіа» (Wikimedia Foundation Inc.) — непідприємницька організація, яка забезпечує матеріальне підґрунтя для численних Інтернет-спільнот, що створюють літературу, яка вільно розповсюджується; виконує в них функції керування, та керує розробкою програмного забезпечення MediaWiki.

\item[Бот в Вікіпедії] — це програма, яка з-під свого облікового запису виконує редагування, що їх нераціонально робити вручну. Як правило, працюють з Вікіпедією на рівні API MediaWiki.

\end{description}

\section{Мотивація}
Вікіпедія на сьогоднішній день є найбільшим сховищем інформації в світі. Звісно порівняно з усім інтернетом частка інформації в ній не дуже велика, але важливіше значення має гомогенність цієї інформації. Вікіпедія складається з мільйонів статтей, оформлення яких стараються звести до спільного формату. Цьому сприяє вікірозмітка, система категоризації, та шаблони які уніфікують оформлення подібних частин інформації (наприклад дату реліз, режисера, афішу, тривалість, касові збори та інша інформація що стосується фільму). 

Також вікіпедія є одним з найякісніших відкритих сховищ інформації в інтернеті, завдяки відсутності реклами, спаму, та іншого інформаційного сміття, яке часто заважає пошуку на інших сайтах. Завдяки цьому, вікіпедія стає відправною точкою в більшості персональних досліджень (розвідок) в інтернеті. Також інформація в вікіпедії є своєрідним дайджестом (стислим викладом) більшості даних що є вільно доступними на потрібну тему, а іноді і більше. Тому часто дивитись далі вікіпедії не потрібно і не має сенсу.

Вікіпедію часто критикують за недостовірність інформації. Справді, її дані може редагувати кожен. Проте, система дозволяє поділяти користувачів на різні рівні за правами. Ті користувачі яким спільнота довіряє більше отримують більші права, і відповідно більше можливостей впливати на вміст вікіпедії. Адміністратори наприклад можуть блокувати окремих користувачів, окремі діапазони IP (цілі університети, міста, і навіть країни), забороняти вставляти певний вміст (посилання на рекламні сайти, чи нецензурну лексику), та змінювати рівень захисту окремих сторінок. Таким чином хоча редагувати вікіпедію може кожен, ніхто не може цілеспрямовано та результативно їй шкодити протягом довгого часу.

Таким чином ми можемо вважати вікіпедію більш-менш надійною, найбільшою в світі базою знань, де інформація викладена достатньо компактно. Автоматизований доступ до такої бази знань може бути корисним для будь-якої інформаційної системи, чи веб-сервісу. Наприклад дані з "вікіцитат" та сторінок про окремі дні в історії активно використовуються в формуванні інформаційного наповнення відеопередач в поїздах київського метрополітену.

Вікіпедія є багатомовною енциклопедією, тому також виступає такою собі ареною змагань націй, де вони демонструють здатність своєї культури створювати, засвоювати, розвивати та зберігати знання. Саме виживання культури в процесі глобалізації залежить від того, наскільки зручний доступ до якого масиву інформації вона може надати учаснику своєї спільноти. Тому розвиток національних вікіпедій є чи не важливішим за загальний розвиток вікі-руху, та програмного забезпечення MediaWiki.

Метою даної роботи є створити свої інструменти для зручнішого редагування та дослідження вікіпедії, розглянути та навчитись використовувати наявні, допомогти іншим розвивати подібні інструменти.

\chapter{Базові принципи роботи вікіпедії}
Вікіпедія окрім того що є найбільшим сховищем інформації в інтернеті, також є саморегульованою спільнотою авторів та редакторів, яка за десятиліття свого існування виробила деякі правила та етикет взаємодії. Їх витоки можна знайти ще в хакерській етиці шістдесятих, (відкритість, та децентралізація дозволять покращити світ, та щонайголовніше - пракричний імператив (будь-хто достатньо компетентний щоб вдосконалити якийсь прилад, річ, технологію чи програму, має мати до неї вільний та доступ, і не повинен просити дозволу щоб це здійснити))\cite{hackers}.

\section{П'ять основ}
Всі правила і поради Вікіпедії ґрунтуються на п'яти основах, що визначають суть Вікіпедії\cite{fivepillars}:

\begin{description}
\item[Вікіпедія — це енциклопедія], що включає елементи загальних і спеціалізованих енциклопедій, альманахів. Вікіпедія — це не безладне звалище інформації. Це не колекція першоджерел або малозначущих фактів, не словник, не трибуна, не газета, не видавництво, не експеримент в області анархії або демократії і не каталог посилань. Це не місце для викладу вашої особистої думки, особистого досвіду або особистих переконань — і тому всі учасники повинні слідувати правилам про заборону оригінальних досліджень і прагнути бути точними.
 
\item[Вікіпедія дотримується нейтральної точки зору]: прагне до того, щоб у статтях не переважала окрема точка зору. Іноді це вимагає представлення кількох точок зору, що слід робити якомога точніше, супроводжуючи кожну необхідним контекстом, щоб можна було чітко розуміти, чиї точки зору представлені. Не слід представляти жодну версію як «найкращу» або «істину в останній інстанції». Це передбачає скрізь, де це можливо, особливо при роботі над спірними темами, — проставлення посилань на авторитетні джерела, які можуть бути перевірені. При виникненні конфлікту щодо того, який варіант статті є найнейтральнішим, слід припинити правку тексту статті, позначити її як суперечливу і спробувати виробити рішення на сторінці обговорення (друга закладка), слідуючи порадам щодо розв'язання конфліктів.
  
\item[Матеріали Вікіпедії є вільними для використання], при цьому будь-хто може вносити до них зміни. Ваш текст доступний під ліцензією «GNU Free Documentation License» (GFDL), а також Creative Commons Attribution-ShareAlike License 3.0 і може розповсюджуватися або компонуватися відповідно до неї Статті може редагувати будь-хто, проте при цьому жоден учасник не має права на одноосібний контроль за тією чи іншою статтею. Відповідно, всі внесені вами правки, у свою чергу, можуть бути безжально відредаговані і реструктуровані співтовариством. Не розміщуйте матеріали, які порушують авторське право, або роботи, що ліцензовані під несумісними з GFDL ліцензіями.
   
\item[У Вікіпедії існують зведені правила поведінки]: виявляйте повагу до ваших колег, навіть якщо в чомусь не згодні з ними. Будьте ввічливі. Уникайте образ, погроз, агресії та широких узагальнень. Зберігайте холоднокровність при роботі над «гарячими» темами, уникайте війн правок; пам'ятайте, що ми працюємо над 294 056 статтями. Дійте сумлінно, не випробовуйте правила Вікіпедії на міцність, припускайте добрі наміри з боку інших. Будьте відкриті, доброзичливі й привітні.

\item[Вікіпедія не має незмінних правил] — за винятком поданих п'яти загальних принципів. Сміливо правте, перейменовуйте, змінюйте статті — в цьому полягає задоволення від редагування, оскільки від вас не вимагають створювати ідеальні тексти, хоча до цього слід прагнути. Не бійтеся щось зіпсувати, адже усі попередні версії статей зберігаються: ви ніяк не зможете випадково нашкодити Вікіпедії або безповоротно видалити текст. Але пам'ятайте — усе, що ви робите тут, збережеться для нащадків.

\end{description}

\section{Види сторінок}
Інформація на вікіпедії організована в статті. Кожна стаття міститься на власній сторінці. Окрім сторінок зі статтями, вони також можуть містити:

\begin{description}
\item[Перенаправлення] - сторінки що містять єдине посилання, яке спрацьовує автоматично. Створюються по суті як альтернативні назви для статті.

\item[Сторінки простору вікіпедія та довідка] - по своїй суті ті ж статті, тільки їх вміст описує саму вікіпедію.

\item[Категорії] - сторінки що містять дуже мало описового тексту, а основний їх вміст складає список статтей та інших категорій які в неї потрапляють. Як присвоїти статті категорію - дивіться в розділі "Вікірозмітка". 

\item[Медіафайли] - сторінки що містять певний медіафайл (найчастіше зображення) та його опис.

\item[Сторінки користувачів] - сторінки що дозволяють користувачам розміщувати інформацію про себе. 

\item[Шаблони] - сторінки призначені для того, аби їх вміст був скопійований на іншу сторінку, можливо з вставкою деяких параметрів. Наприклад сторінки з деякими стандартними повідомленнями.

\item[Обговорення статтей] - сторінки що пов'язані з відповідними сторінками статтей, і призначені для критики та пропозицій щодо вмісту статтей, розміщення деякої службової інформації про статті, та досягнення консенсусу щодо вмісту та оформлення. Окрім обговорення статтей є обговорення для кожного виду сторінок описаних вище.

\item[Обговорення користувачів] - також використовується як публічна система обміну повідомленнями між користувачами. Вікіпедія також має приватну систему, яка відсилає повідомлення на електронну пошту, але цей спосіб використовується рідше.

\end{description}

\section{Користувачі}
Вікіпедія - енциклопедія яку може редагувати кожен. Проте, заради забезпечення стабільного розвитку вікіпедія містить систему що обмежує можливості робити дії що не відповідають цілям проекту. 

По-перше, всі користувачі поділяються на рівні доступу. Передбачено три рівні для звичайних користувачів, три рівні адміністративних, а також додаткові права для використання окремих функцій системи (автопатрульовані, патрульні, боти, чек'юзери, користувачі з доступом до OTRS)\cite{useraccesslevels}.

\begin{description}
\item[]
\item[]
\item[]
\item[]
\end{description}
